Zum Hauptinhalt springen
Version: 24f

2. Informationsgehalt 1

Buchstabenhäufigkeit

Die Buchstabenhäufigkeit gibt an, wie oft ein Buchstabe in einem Text vorkommen. Die Häufigkeit der einzelnen Buchstaben ist je nach Sprache unterschiedlich. Das folgende Diagramm zeigt die durchschnittliche Buchstabenhäufigkeit in deutschen Texten2:

Informationsgehalt

Wir führen ein Experiment durch. Aus einem deutschen Text werden etwa 40% der Buchstaben entfernt. Zuerst werden die vier häufigsten Buchstaben E, N, R und I entfernt. Danach werden diese Buchstaben sowie T, S und A beibehalten und die restlichen entfernt. Obschon etwa die gleiche Menge Buchstaben entfernt worden sind, bleibt der Text nach dem Entfernen der häufigen Buchstaben verständlicher.

Notizen

Buchstaben Redundanz

Originaltext

Ausgabe

Ohne: E, N, I, R

Offenbar tragen die häufigen Buchstaben weniger zum Inhalt des Textes bei. Sie haben einen kleineren Informationsgehalt.

Take-Home Message
SSR
⭐️ Huffman Codierung für die deutsche Sprache

Die durchschnittliche Buchstabenhäufigkeit in deutschen Texten kann der folgenden Tabelle entnommen werden:

E15.99%A6.34%O2.75%W1.40%J0.27 %
N9.59%D4.92%M2.75%Z1.22%Ö0.24 %
R7.71%H4.11%C2.71%P1.06%ß0.15 %
I7.60%U3.76%B2.21%V0.94%Y0.13 %
T6.43%L3.72%F1.80%Ü0.63%X0.07 %
S6.41%G3.02%K1.50%Ä0.54%Q0.04 %

Daraus ergibt sich

Codebaum der Huffman-Codierung für deutsche Texte
Codebaum der Huffman-Codierung für deutsche Texte
ZeichenCodeZeichenCode
(leer)100O01001
A0101P1010111
B111000Q11100110111
C01111R1111
D0110S0011
E110T0010
F000110U11101
G01000V1110010
H10100W1010100
I0000X11100110110
J111001100Y1110011010
K000111Z1010101
L000100Ä10101101
M01110Ö111001110
N1011Ü10101100
Verlustbehaftete Kompression

Würden bei Textdokumenten Algorithmen eingesetzt, welche Zeichen mit tiefem Informationsgehalt weglassen, so würde man von verlustbehafteter Kompression sprechen, da der Originaltext ggf. nicht wieder hergestellt werden kann.